كما كتبنا مؤخرًا، قامت مجموعة من العلماء، الذين صنعوا سابقًا روبوت Libratus للعبة NLHE HU، بتعليم برنامج جديد للتغلب على 6-ماكس. تعلم بلوريبوس البوكر من خلال اللعب مع نفسه لمدة ثمانية أيام على خادم مزود بمعالج 64 نواة، وبعد ذلك تم إجراء التجربة. خلال الاختبارات، تغلب بلوريبوس على مجموعة من المحترفين، من بينهم لينوس لوليجر ونيك بيترانجيلو ودارين إلياس وجريج ميرسون وآخرين. النقطة المهمة هي أن البرنامج لم يعمل على جهاز كمبيوتر عملاق، ولكن على معالجين 14 نواة وذاكرة 128 جيجابايت.

هذا الخبر، بالطبع، أثار قلق العديد من محترفي البوكر، وتوجهنا إلى الخبراء لفهم مدى التهديد الذي يمثله الإصدار الجديد من الروبوت للاعبين المنتظمين في 6-ماكس هولدم.

رأي Simple Poker

Simple Poker هو فريق من المطورين لبرامج حلول احترافية شائعة (Simple Preflop Holdem، Simple Postflop Holdem وغيرها).

- لنبدأ بالسؤال التقليدي: هل ستصمد لعبة البوكر لمدة عامين آخرين؟

- نعتقد أن إنشاء روبوت Pluribus لن يؤثر بأي شكل من الأشكال على صلاحية البوكر.

أولاً، لا يستخدم الروبوت أي تقنيات جديدة خارقة أو مغلقة وغير قابلة للتكاثر، لذلك ربما كانت هناك نظائر للروبوت في وقت سابق، ولا تزال لعبة البوكر حية.

ثانيًا، يعمل الإصدار الحالي من الروبوت فقط مع مجموعات ثابتة من 100 BB، وفي اللعبة الحقيقية يكون تباين المجموعات كبيرًا. بالإضافة إلى ذلك، في عدد من الحالات، يحتاج الروبوت إلى الكثير من الوقت للتحرك - أي أنه من أجل تكييفه مع اللعبة الحقيقية، من الضروري القيام بالكثير من العمل، وليس حقيقة أنه سيكون قادرًا على اللعب بجودة عالية في ظروف اللعبة الحقيقية مع قيودها.

ثالثًا، تعتمد صلاحية البوكر بشكل أكبر على توافر وتدفق اللاعبين الترفيهيين، والاهتمام من جانب الهيئات الحكومية، وتغيير شروط الغرف - من الصعب علينا التنبؤ بهذه الجوانب. بشكل عام، التوقع هو أن لعبة البوكر ستستمر في العيش في العامين المقبلين.

لا ينبغي أن ننسى أن الغرف لديها القدرة على إضافة ألعاب جديدة وتغيير القواعد في الألعاب الحالية بطريقة تزيد من صعوبة حلها. أيضًا، يوجد في الغرف الكبيرة خدمات أمان متقدمة، والتي من غير المرجح أن تسمح لروبوتات بالاستيلاء على اللعبة.

- أحد المخاوف الرئيسية للاعبي البوكر هو تقليل المتطلبات الفنية للروبوت وزيادة احتمالية أن يتمكن أي شخص تقريبًا من تحمل تكلفته. هل الأمر بهذه البساطة حقًا؟

- هنا تجدر الإشارة إلى التقدم المحرز في تطوير أجهزة الكمبيوتر وتوافرها. لحساب الإستراتيجية الأساسية للروبوت (إستراتيجية المخطط)، تم استخدام خوارزمية MCCFR، والتي تسمح أيضًا بتبسيط اللعبة التي يتم حلها، مما يقلل من متطلبات موارد الحوسبة.

هذه الخوارزمية معروفة منذ فترة طويلة وتستخدم في برامج الحلول العامة، المتاحة للجميع، على وجه الخصوص، في Simple Preflop Holdem. تتطلب هذه البرامج عددًا قليلاً جدًا من موارد الحوسبة لحساب مواقع ما قبل التقليب مع العديد من المشاركين، والتي يقوم بها العديد من المستخدمين بالفعل على أجهزة الكمبيوتر المنزلية المتقدمة الخاصة بهم، أي أن توفر هذه الحسابات في فهمنا ليس شيئًا جديدًا ومدهشًا. تكمن مشكلتهم الرئيسية في أنها تسمح بالحصول على حلول جيدة بما فيه الكفاية قبل التقليب، ولكن في مرحلة ما بعد التقليب، من المرجح أن تكون الاستراتيجيات المبسطة أدنى من الاستراتيجيات البشرية.

لذلك، لحساب الاستراتيجيات في مرحلة ما بعد التقليب، من الأفضل استخدام برامج حلول منفصلة تحل هذه المشكلة تحديدًا بشكل جيد، ولكن هذه الحسابات بالفعل كثيفة الاستخدام للموارد بدرجة كافية لتنفيذها في الوقت الفعلي، خاصةً بدءًا من التقليب. وفقًا لمنشئي Pluribus، يكمن اختراقهم الرئيسي في أنهم وجدوا طريقة لتحسين الإستراتيجية في الوقت الفعلي في مرحلة ما بعد التقليب، والتي تم حسابها مسبقًا في برنامج حل ما قبل التقليب. ولكن بناءً على مقالاتهم الأخرى، يمكن الاستنتاج أن Pluribus سيلعب بشكل أسوأ في مواجهة واحد لواحد من الروبوت السابق Libratus.

- كيف تم حساب نتائج الروبوت؟

- لتقليل التباين، تم استخدام خوارزمية AIVAT، والتي تتطلب الحصول على تقييم EV لكل إجراء، وقد تكون بعض النقاط المثيرة للجدل مرتبطة بحقيقة أن هذا التقييم تم الحصول عليه في الأساس على أنه EV للعبة الروبوت ضد نفسه. أيضًا، في عمليات المواجهة، تم استخدام EV مقابل النطاق المحتمل الكامل للروبوت. في لعبة شخص ضد خمسة روبوتات، تمت مقارنة نتيجة توزيعة الشخص ونتيجة توزيعة كما لو كان الروبوت يلعبها بالكامل.

- هل سيكون من الممكن استخدام Pluribus للبحث عن روبوتات أخرى؟

- من غير المرجح أن يساعد Pluribus في ذلك. بالنسبة لمرحلة ما قبل التقليب، توجد منذ فترة طويلة مخططات محسوبة في برامج حل ما قبل التقليب، وقد تكون الاستراتيجيات في مرحلة ما بعد التقليب مثل Pluribus والروبوتات الأخرى بعيدة جدًا عن التوازن الحقيقي بحيث يمكن مقارنتها بثقة. بالإضافة إلى ذلك، لا ينبغي أن ننسى أن روبوتات 6-ماكس الحالية ربما تلعب بأسلوب استغلالي، وتتكيف مع اتجاهات المجال. هذه الاستراتيجيات لن تتطابق بشكل عام مع GTO.

- إذا كان لدى لينوس لوليجر وبلوريبوس قواعد توزيعات كبيرة بنفس القدر ضد بعضهما البعض، فعلى من ستراهن للفوز؟

- ليس لدينا معرفة تفصيلية باستراتيجيات لينوس، لذلك في إجابتنا سنعتمد فقط على حقيقة أنه أحد أقوى لاعبي البوكر. يجب أن نفهم أنه في الظروف الحقيقية، بوجود لاعب ترفيهي على الطاولة، سيقوم لينوس بتعديل استراتيجيته لتناسبه، لتعظيم EV الخاص به، في حين أن استراتيجية الروبوت ضد جميع اللاعبين ستكون هي نفسها. وبالتالي، حتى لو كان لينوس يخسر قليلاً أمام الروبوت، يجب عليه أن يعوض خسارته بفضل استغلال reactreational للاعب وفي النهاية يحصل على معدل فوز أعلى من Pluribus.

مع احتمال كبير، لن يكون لدى لينوس أي فرصة ضد الروبوت في مواقع 2-way، حيث يمكن حلها بدقة - لا يوجد ما يمكن للإنسان أن يعارضه ضد الاستراتيجيات المتوازنة المحسوبة. من الصعب الحفاظ على توازن مثالي - سيبسط الشخص استراتيجيته، ويفقد EV. ولكن نظرًا لأن Pluribus يستخدم شجرة لعبة ثابتة لبعض الحلول، فمن المحتمل أن يتمكن لينوس من استغلال الروبوت بأحجام غير قياسية. بالنسبة للبنوك مع العديد من المشاركين، من الصعب تقييم الفرق في مستوى لعب الإنسان والآلة. ستكون الاستراتيجيات التي حسبها Pluribus في مرحلة ما بعد التقليب في هذه المواقع بعيدة عن التوازن، ولكن لعبة الإنسان في multiway عادة ما تكون أضعف من لعبة HA.

رأي friendlykam

اللاعب المنتظم في حدود عالية 6-ماكس هولدم إيليا friendlykam بناءً على طلبنا درس قاعدة بيانات تضم 10000 توزيعة لـ Pluribus من الجزء الثاني من التجربة، حيث لعب الروبوت ضد خمسة أشخاص، وشارك استنتاجاته حول لعبته.

لدى Pluribus رهان ثلاثي منخفض وضغط على 6-ماكس. يستخدم إستراتيجية مختلطة ويلعب جزءًا من أفضل الأوراق بالاتصال. لكن ما لا أستطيع أن أغفره هو الانسحاب من رهان ثلاثي بنسبة 77٪. WTF؟ في الوقت نفسه، لديه عدوانية إجمالية عالية جدًا في مرحلة ما بعد التقليب: Total AFq 52.4٪.

لنبدأ التوزيعات! Lets get ready to rumble!

خداع مع أيدي تبدو سخيفة للوهلة الأولى

Soul read by Pluribus. يبدو أن الروبوت يرى أيدي الآخرين أو "وضع خداعًا" على النهر. أتذكر هذه الأفكار من اللاعبين المنتظمين عندما لعبت دون اتصال بالإنترنت :) الشيء الوحيد الذي يمكن أن يفسر مكالمات الروبوت على الدور والنهر هو أنه يعتقد أن هناك قيمة قليلة في هذا الربط بين الأحجام.

دفعات خداعية غير نمطية للنهر بقيمة مواجهة متوسطة

للوهلة الأولى تبدو سخيفة أيضًا. لماذا تحويل مثل هذه اليد إلى خداع؟ ولكن، على ما يبدو لي، يتكون طيف الفحص والرفع للخصم من الفول هاوس والشارع على 54s. إذا كان هناك شوارع 54s في نطاق الخصم، وخاصةً 54o، فهذا خداع جيد، لأننا نمنع أفضل فول هاوس، وتعتبر يدنا الجزء السفلي من نطاق الرهان.

هنا يحاول الروبوت إخراج 5x+، بعد أن منع فول KK، لكن في الممارسة العملية يبدو الأمر فظيعًا. لن يسقط أحد هنا 5x بسبب حقيقة أن لدى SB نطاقًا ضيقًا إلى حد ما، وهناك القليل بشكل كارثي من 5x+. إنه يصور فقط بعض A5s و 65s، وحتى جزئيًا سيكونون في طيف الرهان الثلاثي. يد ممتازة للخداع، ولكن ليست لدفع الخداع، في رأيي المتواضع.

هناك أيضًا لعبة ليست جيدة جدًا من اللاعبين المنتظمين ضد Pluribus

على ما يبدو، هذه محاولات لاستغلال الانسحاب من الرهان الثلاثي بنسبة 77 ٪ (إذا كان لديهم إحصائيات على الإطلاق)، لأن اللاعبين المنتظمين اختاروا أيديًا غير نمطية تمامًا للرهان الثلاثي.

كش ملك، أيها الكيس الجلدي! :)

اللعب المفرط من Pluribus

حتى أنه من الصعب إضافة أي شيء هنا، لقد تم المبالغة فيه ببساطة.

من الصعب عليَّ الحكم على هذه التوزيعات، سواء كانت لعبة سيئة أو قوية بشكل لا يصدق

خسر الكيس الجلدي معركة التسوية هذه :)

الناس يفوزون! من الخارج، يبدو الأمر كما لو أنني قرأت مقالًا لـ "الفضة" على أحد المواقع المعروفة، حيث كتبوا أنه عند تصوير NL2، يتم لعب زوج علوي على لوحة منخفضة على كومة ضد الهواة.

يبدو أن الروبوت كان مكلفًا بمهمة - عدم إتاحة تحقيق حقوق ملكية عمليات الخداع بأي ثمن! في رأيي، هذا مجرد لعب مفرط وعزل لأفضل الأوراق الخاصة بالخصم، لأن الأشخاص الذين لديهم أيدي أسوأ في حقوق الملكية، كما ترون، لا يرفضون. يبدو أن هذا مفهوم لحقوق ملكية الرهان، والذي ألقى عليه OhHeyCindy بعض الضوء في مقابلته. لكن قد أكون مخطئًا، ربما هذه لعبة رائعة جدًا، لا يمكن تفسير ميزاتها الإيجابية إلا من قبل اللاعبين المنتظمين في NL5k+، وبعض أفضل 10-20 لاعبًا مشروطًا في العالم.

عمليات خداع مثيرة للاهتمام، غير نمطية تمامًا للبشر

وصلنا إلى النقطة الأخيرة.

لا تكاد ترى مثل هذا الربط بين أحجام الدور والنهر في وعاء رهان ثلاثي على الطاولات.

الخداع حسب الحواجز. لن يحدث هذا من الأشخاص إلا مرة واحدة كل خمس سنوات.

الخداع دون حقوق ملكية، وهو قادر عليه فقط برنامج الحل. لا يخادع الناس عمليًا بهذه الأيدي.

ما قبل التقليب والتقليب افتراضي. الفكرة في الدور، على ما يبدو لي، هي أننا سنخرج Ax في النهر. ولكن في هذه التوزيعة، على ما يبدو، كان لينوس على الزر، الذي أظهر من هو الأب على الطاولة :) من الخارج، ربما يبدو الأمر بريًا إلى حد ما.

هنا سيضغط الشخص ببساطة على زر المكالمة بثلاثية الخاص به، ولكن ليس Pluribus. حجم ضخم للرفع و... مكالمة دفع. WUT؟ يصور الروبوت الفول هاوس على A7 و A10. جزء من KQ، الذي فحصه في التقليب. كما أنه يخرج الثلاثيات على Ax، التي يقسمها.

يبدو أن اللاعب الذي يحمل الاسم المستعار Eddy كان على علم بالفعل بميزات الروبوت، لأن دفع الثلاثية بـ AK في مثل هذا المكان لن يفعله شخص ضد شخص. والكرز الموجود أعلى الكعكة هو مكالمة الدفع على النهر من Pluribus. مع هذه الاحتمالات، على حد فهمي، لن يتخلى الروبوت أبدًا عن الأيدي التي تمنع أفضل أوراق الفول هاوس.

قد يعطي التوزيع المحدد فكرة خاطئة عن لعبة الروبوت. على الرغم من بعض العيوب، إلا أن Pluribus، في رأيي، لا يزال يلعب بشكل جيد. كانت هناك العديد من التوزيعات التي لعبها بشكل جيد، لكنها لم تبدو لي مثيرة للاهتمام، لأنها افتراضية إلى حد ما.

لكن شيئًا ما يخبرني أن اللاعبين المنتظمين في NL5-10k سيجتمعون على الفور تحت مظلته، إذا كانت هناك فرصة كهذه.